#Physical Intelligence | 熱門關鍵字 | 鉅亨號

AI Robotics 是我們長期關注的賽道之一，通用機器人是AGI 從數位世界走向物理世界的重要路徑，而robot foundation model 要做的就是給機器人建立一個大腦，從軟體角度實現機器人的通用能力。在AI robotcis 的主題下，Physical Intelligence 是我們最受關注的公司之一。PI 被視為是機器人領域的OpenAI，是所有機器人公司中research 水平和人才密度最高的團隊，團隊的核心目標是開發通用機器人的foundation model，今年2 月，PI 開源了通用模型π0 的代碼和權重，2 月26 日，PI 又推出了Hi Robot，能夠將π0 等推理模型納入一個推理過程。本篇內容是我們對PI 核心創辦人 Chelsea Finn 最新觀點的編譯理解。圍繞著 π0 和Hi Robot，Chelsea Finn 分享了機器人如何實現泛化？她認為，數據人就是關鍵中的關鍵，一定要取得更多樣化的機器人數據，而不只專注於數據的質量，最終的目標是擴大真實機器人數據的規模。同時，Chelsea Finn 也理性地認為，雖然人形機器人這個型態很酷，但當下，人形機器人被高估了。要實現機器人領域的AGI，物理智能才是核心，未來一定會有各種各樣的機器人形態，PI 內部將機器人的AGI 時刻定義為「寒武紀大爆發」。01 . Chelsea Finn 是如何進入機器人領域的？Elad：你是如何進入機器人領域的，最初是什麼吸引了你？Chelsea Finn：一開始，我對機器人可能帶來的影響感到非常興奮。同時，我也對發展感知和智慧的問題非常著迷，機器人體現了這一切。有時候這個領域牽涉到一些有趣的數學問題，能讓大腦保持活躍，不斷思考。這些都是從事這個領域很有趣的地方。我真正開始認真研究機器人大概是在10 多年前，當時我剛開始在柏克萊攻讀博士。我們當時在做神經網路控制，試圖訓練神經網絡，使得影像像素可以直接對應到機器手臂的扭矩。在當時，這種方法還不太流行。但如今，這個方向已經取得了巨大進展，在機器人領域受到了更多認可，也讓越來越多的人感到興奮。從那個時候開始，我就很清楚，我們可以訓練機器人完成一些很酷的任務。但真正的挑戰在於，如何讓機器人在不同環境、面對不同物件時都能完成這些任務。 10 年前，我們訓練機器人去擰緊瓶蓋、用鏟子把物體放進碗裡、精準地插入物體，或是把衣架掛到衣架桿上。這些任務本身已經很酷了，但讓機器人在不同環境、面對不同物件時都能執行這些任務，才是真正的困難。因此，我一直在思考如何建立更廣泛的資料集，如何基於這些資料集進行訓練，以及有那些不同的學習方法，例如強化學習、影片預測、模仿學習等。我在博士期間和加入史丹佛之前，曾在Google Brain 工作了一段時間。後來，我成為了史丹佛大學的教授，在那裡建立了自己的實驗室，並在這些方向上做了大量研究。大約一年前，我與合夥人們共同創立了Physical Intelligence，希望能真正實現我們的願景。我為此離開了史丹佛大學，但我仍然在史丹佛指導學生。02 . PI 的研究進展與發展路徑：泛化與開源Elad： Physical Intelligence 目前的研究方向為何？Chelsea Finn：我們的目標是建立一個大型神經網路模型，最終讓它能夠控制任何機器人，在任何場景下執行任何任務。我們的願景與傳統機器人研究有很大不同。過去，機器人研究往往是深入專注於某一個特定的應用場景，例如開發一個機器人來執行單一任務。然而，這種方法往往會讓研究侷限在特定應用裡，一旦機器人被優化到擅長某個特定任務，就很難再擴展到其他任務。我們想要解決的是更廣泛的物理智能問題，而我們以長期視角來看待這個問題。我們特別關注泛化能力和通用機器人。與其他機器人公司不同，我們認為充分利用所有可能的數據是非常重要的。這不僅限於某一種特定的機器人數據，而是要匯總來自各種不同機器人平台的數據，例如六軸機器人、七軸機器人、單臂機器人、雙臂機器人等。已經有許多證據表明，不同機器人之間可以分享大量豐富的訊息，能讓數據的價值最大化。在這種情況下，如果對機器人硬體進行迭代升級，就不需要完全捨棄舊版本的資料。在過去，有一個痛點在於當機器人升級換代時，原本的策略就無法適配，需要重新訓練模型，這個過程既費時又費力。而 Physical Intelligence 的目標是打造通用機器人，並開發foundation models，讓它們成為下一代機器人在現實世界中的智慧驅動力。Elad：這在某種程度上與LLM 有些相似。在LLM，深度學習、Transformer 架構以及規模化訓練的結合，已經證明了可以實現真正的通用性，並且能夠在不同領域之間進行不同形式的遷移。你們所採用的架構或方法具體是什麼？Chelsea Finn：一開始，我們主要是想擴展資料收集規模。與語言領域不同的是，機器人領域並沒有類似維基百科或涵蓋機器人運動的「網路」可供利用。因此，我們對在真實環境下收集真實機器人的數據感到非常興奮。這種真實數據一直以來都是推動機器學習進步的重要因素。而一個關鍵點是，我們需要自己去收集這些數據。這意味著我們需要在物理世界中進行機器人操作。雖然我們也在探索其他擴展數據的方法，但核心仍然是擴大真實機器人數據的規模。去年十月底，我們發布了一些初步成果，展示了我們在資料擴展方面的努力，以及如何讓機器人學習非常複雜的任務，例如折疊衣物、清理桌面、建造紙板箱等。目前，我們思考的重點是如何讓機器人能夠進行語言互動，並在不同環境中具備泛化能力。在去年十月的演示中，我們展示的機器人是在一個特定的環境中訓練的，而數據也是來自那個環境。雖然它能夠在一定程度上泛化，例如折疊它以前從未見過的短褲，但這種泛化能力仍然非常有限。此外，使用者也無法與它進行互動，除了訓練資料中已有的一些基本指令外，無法讓它執行新的任務。因此，我們目前的一個重要目標是讓機器人能夠處理更多樣化的指令，並適應更多不同的環境。在架構方面，我們採用了Transformer，並且使用了pre training 模型，特別是預先訓練的Vision-Language Model，這使我們能夠利用互聯網中豐富的資訊。幾年前，我們有一個研究結果表明，如果利用Vision-Language Model，機器人可以執行訓練資料中從未包含過的任務，但這些任務涉及的概念是存在於網路的資料中。一個著名的例子是，你可以給機器人展示Taylor Swift 的照片。雖然機器人從未在現實中「見過」 Taylor Swift，但由於網路中有大量Taylor Swift 的圖片，它可以利用這些資訊以及pre training 模型的權重來實現知識遷移，讓機器人執行相應的任務。因此，我們並不是從零開始，而是依託這些既有的知識來提升，這對整個研究有很大的幫助。Elad ：實現泛化的關鍵是什麼？Chelsea Finn：我認為最重要的一點是獲取更多樣化的機器人數據。例如，在去年十月底的那個發布中，我們的數據是在三棟建築中收集的。而相較之下，網路上的語言模型和視覺模型所依賴的資料來源要廣泛得多，因為網路上的圖片是由許多人拍攝的，文字是由許多人撰寫的。因此，我們需要在更多不同的環境中收集數據，涉及更多物件、更多任務。擴展數據的多樣性，而不僅僅是數據的數量，這是至關重要的。我們目前的重點工作之一就是讓我們的機器人進入更多不同的場景，並在這些環境中收集數據。同時，這也會帶來一個非常有價值的副產品——我們可以學習如何讓機器人在各種不同環境中真正運作並發揮作用。如果我們想要讓機器人在現實世界中真正使用，這一點至關重要。除此之外，我們也在探索其他方向，例如利用人類的視訊資料、從網路中獲取資料、使用pre training 模型，並思考推理能力的應用，儘管目前更多是一些基礎的推理。• 例如把一件髒衣服放進洗衣籃，機器人就需要能夠辨識衣服和洗衣籃在那裡，以及完成這個任務需要執行的操作。• 例如要製作一個三明治，而使用者對醃黃瓜過敏，那麼機器人應該可以推理出不應該在三明治裡放醃黃瓜。總的來說，最重要的仍然是獲取更豐富多樣的機器人數據。Elad ：開源會是PI 的長期發展路徑嗎？Chelsea Finn：我們一直都很開放，開源是我們有意識的選擇。我們不僅開源了一些模型的權重，還發布了技術細節和論文，甚至與硬體公司合作，向它們提供機器人設計。首先，我們認為這個領域還處於起步階段，這些模型在未來1-3 年內會變得更強大，機器人也會變得更強大。我們希望支援研究發展，支援社區，支援機器人技術，這樣當我們最終開發出通用模型技術時，整個世界會更好地為它做好準備，屆時會有更強大的機器人能夠利用這些模型，也會有更多具備相關專業知識的人理解如何使用這些模型。其次，我們擁有一支非常優秀的研究人員和工程師團隊，而頂尖的研究人員和工程師更希望加入開放的公司，尤其是研究人員，他們希望自己的研究成果能夠得到認可，並且能夠分享和討論他們的想法。吸引最優秀的研究人員和工程師是解決機器人問題的關鍵。最後，選擇開源的最大風險在於可能無法成功。我並不擔心競爭對手，我更擔心的是最終沒有人能解決機器人問題。機器人技術非常困難，過去也有很多失敗的案例。與在影像中識別物體不同，機器人操作幾乎沒有容錯空間。例如，機器人與物體的接觸距離非常小的時候，一點點差距可能會對結果產生巨大影響，會決定機器人能否成功操作這個物體。收集數據的挑戰也是如此，任何涉及硬體的事情都很困難。03 . 機器人怎麼實現AGI？Elad ：物理智能會在那些領域產生最直接的影響，這些新方法何時能夠真正實現突破？Chelsea Finn： Physical Intelligence 非常關注機器人的長期問題，而不是某一個特定的應用，專注於單一應用可能會帶來許多失敗的風險。我不確定物理智能的第一個應用場景會在那裡。在機器學習領域，有許多成功的應用，例如推薦系統、語言模型、影像偵測等，模型的輸出最終會被人類使用，人類可以被檢驗，因為人類通常是擅長檢驗的。很多機器人非常自然的應用場景是機器人獨立自主地做某些事情，而不是接收人類給予的指令，例如給定手臂的目標位置，之後人類再進行檢驗。因此，我們需要思考一些新的方法來應對允許錯誤的場景，或是人類和機器人可以合作的場景。這是一個大挑戰。 Physical Intelligence 一直在嘗試部署這些機器人技術，我們所做的語言互動工作其實就是受到這個挑戰的推動。人類能夠提供輸入是非常重要的，例如人類希望機器人如何表現、希望機器人做什麼、希望機器人如何幫助完成某件事。Elad ：如何看待人形機器人與非人形機器人的差異？Chelsea Finn：人形機器人真的很酷，但有些被高估了。從實際角度來看，我們現在在數據方面確實有瓶頸。有些人認為人形機器人可能更容易收集數據，因為它們符合人類的形態，可能會更容易模仿人類。但如果你曾經嘗試過遠端操作人形機器人，你會發現操作人形機器人比操作一個靜態操控器或一個有輪子的移動式操控器要困難得多。優化資料收集非常重要，如果能達到一個超過需求的資料量程度，那麼剩下的就只是研究、計算和評估的問題了。我們正在優化這個方向，這也是我們目前優化的目標之一。我們使用便宜的機器人，使用我們能夠非常輕鬆地開發遠端操作介面的機器人，這樣就可以快速進行遠端操作，並收集多樣化的大量數據。Elad ：怎麼看待具身智慧模型的開發與非具身智慧模型開發之間的差異？Chelsea Finn：人們低估了運動控制中所包含的智慧。我們能夠像現在這樣使用雙手，經過了多年的進化。而有許多動物，即便經歷如此長時間的演化，也無法做到這一點。因此，能夠做一些非常基礎的事情，例如做一碗麥片或倒一杯水，實際上蘊含著極大的複雜性和智慧。所以，從某種程度上來說，具身智能或物理智能是智能的核心。Elad ：在過去兩三年裡，那些研究促使人們覺得機器人到了一個轉捩點？Chelsea Finn：有幾個因素讓我們覺得這個領域的進展比之前更快了。第一個是SayCan，可以利用語言模型對高層部分進行規劃，再與低層模型結合，以便讓機器人完成長時間的任務。第二個是RG2，能夠實現前文所說的Taylor Swift 的例子，RG2 能夠將大量的網頁資料整合進來，進而提升機器人的泛化能力。第三個是RT-X，能夠跨越不同的機器人形態訓練模型。重要的是，我們可以將各個研究實驗室的資料整合到一個通用格式，並在此基礎上進行訓練。在訓練時，我們發現可以將一個模型的checkpoint 發送到另一個實驗室，即使距離很遠，那個實驗室的研究生也可以在機器人上運行這個checkpoint，而且大多數情況下，結果比他們自己在實驗室裡單獨迭代出的模型要好。這是一個重要的標誌，說明這些技術開始真正起作用，透過匯總來自不同機器人的數據，的確能夠帶來益處。checkpoint 是指在模型訓練過程中保存模型目前狀態的快照，通常包含模型的權重、最佳化器的狀態以及其他訓練相關的參數。還有Aloha 和Mobile ALOHA，實現了遠端操作來訓練模型，使機器人完成相對複雜的精巧操作任務。我們也做了一個後續的關於繫鞋帶的專案。當我們啟動PI 時，也是對其他人發出了信號——如果專家真的願意在這個領域下注，那也許真的會有一些變化。04 . Hi Robot 是什麼？Elad ： PI 最近推出了分層互動機器人，也就是Hi Robot，這是怎麼考慮的？Chelsea Finn：我們試著專注在兩個方面。第一，如果一個任務需要較長時間才能完成，即可能需要花費幾分鐘，那麼僅依賴單一策略，即從圖像直接輸出動作，可能並不高效。例如在製作三明治的過程中，如果策略只是逐步輸出下一個運動指令，而不考慮整個任務的整體規劃，那麼效果可能不如透過真正推理和規劃來完成所有步驟來得更好。第二，我們希望機器人不只執行基本指令，例如折衣服、拿起杯子，而是能與人類互動。例如人類可以告訴機器人自己是素食主義者，要求機器人做一個三明治，不要加泡菜，或中途要求機器人暫停放番茄。處理這些類型的提示、進行現場調整等，和僅僅執行基本指令之間有很大的差距。因此，我們開發了一個系統，有一個模型來接收提示並進行推理，能夠輸出機器人應該執行的下一步，例如告訴機器人下一步去“拿起番茄”，然後有一個低層次的模型，將“拿起番茄”作為輸入，輸出下一個半秒內的命令。這個專案非常有趣，我們讓機器人做了一個三明治，還做了購物和清理桌子。我最初對它感到興奮，是因為看到機器人能夠回應不同的提示並完成這些具有挑戰性的任務，而且，它似乎是一種正確的方法。05 . 機器人需要那些感官？Elad ：機器人的感測器現在處於什麼階段？Chelsea Finn：如果只依靠視覺，甚至只使用RGB 影像，我們已經走得很遠了。我們通常會有一個或多個外部的基礎攝影機來觀察場景，並且還會在機器人的每個手腕上安裝攝影機。我們可以透過這些設備取得很好的效果。如果我們可以為機器人裝上「皮膚」就更好了，但目前市面上的觸覺感測器要不是不如皮膚那麼耐用，就是成本過高，或是解析度非常低。所以，在硬體方面有很多挑戰。實際上將RGB 相機安裝在手腕上非常有幫助，可能能提供與觸覺感測器相似的許多資訊。Elad ：在機器人領域，需要多少感測器？那些是必要的，那些可能不需要？Chelsea Finn：例如做三明治，你可能會希望機器人能夠「品嚐」一下三明治，看看是不是好吃，或至少能聞到味道。我過去曾多次向Sergey Levine 提出過「嗅覺」這個觀點，因為嗅覺確實有很多好處。從某個角度來看，感測器有冗餘性是很好的。例如音頻，當人類聽到某個意外的聲音時，實際上可以在許多情況下提醒你注意到某些事情，儘管你可能已經透過其他感測器看到了某個物體掉落。這樣的冗餘性可以增強系統的穩健性。但對我們來說，現在並不是優先考慮這些感測器的時機，因為目前的瓶頸並不在於感測器，而是在資料處理，尤其是在架構等方面。目前我們的機器人策略沒有記憶，機器人只看目前的影像，甚至無法記住半秒鐘前發生的事情。所以，我寧願先在我們的模型中加入記憶功能，而不是加入其他感測器。在沒有其他感測器的情況下，我們也能夠為許多應用場景開發出商業可行的機器人。06 . 類比自動駕駛，機器人和機器人公司會如何發展？Elad ：和自動駕駛相比，機器人未來發展的時間線大概是怎麼樣的？Chelsea Finn：我不知道。自動駕駛和機器人技術各有難易之處。一方面，機器人更難，因為是一個更高維度的空間，即使是靜態機器人也有14 個維度，每隻手臂有7 個維度。在很多情況下，需要比自動駕駛有更高的精確度。我們也沒有一開始就擁有那麼多的數據。另一方面，自動駕駛必須解決整個分佈問題，才能讓任何技術具備可行性，必須能夠處理任何時間段的交叉路口、各種行人情景以及其他車輛等。而在機器人技術中，有許多商業應用場景不需要處理這麼大的分佈問題，也沒有那麼大的安全風險，而且自動駕駛領域的結果非常令人鼓舞，尤其是舊金山Waymo 車輛數量的增加。Elad ：類比自動駕駛的發展，現在的機器人公司會如何發展？大公司做機器人是否有優勢？Chelsea Finn：最近有許多新玩家進入機器人領域。10 年前，做自動駕駛可能為時過早，但自那時以來，深度學習取得了很大的進展。機器人領域也是如此，如果在10 年前，甚至5 年前，我覺得也太早，當時的技術並不成熟，或許現在仍然有些早。自動駕駛的難度已經證明了在物理世界中建立智慧是多麼困難。我非常喜歡新創公司的環境，我在Google 遇到非常困難的事情，例如考慮到程式碼安全，帶著機器人離開校園幾乎是完全不可行的。但如果想收集多樣化的數據，把機器人帶出校園是很有價值的。而在新創公司中，你可以更快地行動，因為你沒有那些限制和繁瑣的程序。大公司雖然有大量資本，可以支撐得更久，但行動會更慢。對於新創公司的創辦人而言，快速部署、快速學習和快速迭代可能是最重要的，而且要盡量去開發，真正讓機器人走到市場上，並從中學習。07 . 對訓練資料和硬體的看法Elad ：怎麼看待將人的觀察資料作為機器人訓練集的一部分，這些資料可能來自YouTube，或是專門錄製的內容。Chelsea Finn：這些數據確實有很大價值，但僅憑這些數據並不能走得太遠。• 例如，你觀看奧運游泳選手比賽，即使你有運動員的體力，但運動員訓練自己的肌肉來完成動作的經驗也是至關重要的。• 例如，你試著學習如何打好網球，但光是觀看專業選手，是無法學會的。人類在低階的運動控制方面已經是專家，但機器人並不是這樣。機器人實際上需要從自身的身體經驗中來學習。所以，能夠利用這種數據形式，尤其是擴展機器人自己的經驗，是非常有前景的。但要真正取得進展，關鍵還是要有來自機器人本身的數據。Elad ：這些數據是你為機器人產生的通用數據，還是你讓機器人模仿某些活動？Chelsea Finn：當我們收集數據時，機器人有點像牽線木偶，我們可以記錄機器人實際的運動指令和感測器數據，例如攝影機影像，這就是機器人的「經驗」。自動化經驗將發揮巨大作用，就像在語言模型中一樣。在得到一個初步的語言模型後，如果能透過強化學習讓機器人基於自己的經驗自我啟動，那將是非常有價值的。Elad ：那些資料是可泛化的？Chelsea Finn：資料是否可泛化關鍵在於分佈廣度（the breadth of the distribution）。雖然很難量化或衡量機器人的經驗有多廣泛，也沒有辦法將任務的廣度進行分類，比如一個任務與另一個任務有多大不同，一個廚房與另一個廚房有多大差異之類的，但至少可以通過觀察建築物數量或場景數量等因素，粗略瞭解這種廣度。Elad ：隨著機器人技術的發展，未來機器人會有一個單一的形式，還是會有幾個不同的形式，從而形成一個豐富的生態系統？Chelsea Finn：我的猜測是會有很多不同的機器人平台，各種各樣的機器人硬體類型會湧現出來，我和Sergey Levine 稱之為「寒武紀大爆發」。只要我們擁有可以支援這些不同機器人的技術和智能，就像廚房裡有各種不同的設備，各自能做不同的事情，而不是只有一個設備能做所有事情。可以想像一個這樣的世界：有一種機器人手臂可以在廚房裡做事，它的硬體專門針對廚房工作進行了優化，並且可能還會優化成對於這個特定用途而言更便宜，還有其他硬體可能設計用於折疊衣物、洗碗等。Elad ：在 The Diamond Age 這本書中，呈現了一種觀點：物質透過管道進入家庭，家庭用3D 列印機來製作一切，例如你下載圖紙，然後3D 列印出物品。還有一些人可能會修改設計，選擇性優化某些功能來改進產品。這樣的未來有可能實現嗎？Chelsea Finn：這樣的世界是非常可能的。如果針對某個特定的使用場景來優化硬體，是可以製造出更便宜的硬體的。而且這樣的硬體可能也會更快、效率更高等。但實際實現起來是非常困難的。Elad ：預測未來趨勢確實非常困難。我之所以認為硬體平台的數量會減少，其中一個原因就是供應鏈問題。大規模生產硬體組件可以降低成本，因此最終市場上的硬體平台可能會收縮，變成更少但更具規模效應的選擇。除非某些硬體平台在成本上有顯著的優勢，否則企業更傾向於生產更少種類的硬體，因為這樣更容易擴展、複製，並且製造成本更低。從硬體產業的角度來看，這是一個常見的邏輯。因此，在「多樣化硬體平台」與「規模化、低成本生產」之間的權衡，是一個值得思考的問題。Chelsea Finn：我們可能會有機器人出現在供應鏈中，能夠製造任何想要的客製化設備。Elad ：未來，機器人將無所不在。（海外獨角獸）